حل برخط بازی های دیفرانسیلی افق نامحدود برای سیستم های دینامیک-نامعین زمان-پیوسته با استفاده از الگوریتم های یادگیری تقویتی

پایان نامه
چکیده

بازیهای دیفرانسیلی امروزه کاربردهای گسترده در زمینه های مختلف از جمله سیستمهای مخابرات بیسیم و شبکه، سیستمهای اقتصادی و راهبرد های دفاعی یافته اند. حل بازیهای دیفرانسیلی تکیه بر حل معادلات همیلتون-جاکوبی دارد. حل این معادلات در حالت غیرخطی بسیار مشکل بوده و ممکن است حتی در موارد ساده فاقد حل تحلیلی سرتاسری باشند. اکثر روش¬های ارائه شده برای حل این معادلات، روشهای تقریبی برون خطی هستند که در آنها دینامیک سیستم کاملا معین میباشد. در این رساله، سه الگوریتم برخط برای یافتن حل تقریبی بازیهای دیفرانسیلی دونفره مجموع-صفر و چندنفره مجموع-غیرصفر ارائه گردیده است: الگوریتم یادگیری تقویتی همزمان، الگوریتم برنامه ریزی پویای تطبیقی و الگوریتم یادگیری تقویتی انتگرال. مزیت عمده استفاده از یادگیری تقویتی این است که زمینه برای حضور کنترل تطبیقی فراهم میشود و بنابراین میتوان با ترکیب یادگیری تقویتی و شبکه های عصبی، الگوریتم های کنترل بهینه تطبیقی برای سیستم های با دینامیک نامعین ارائه کرد. در روشهای کنترل بهینه تطبیقی، شرط تحریک پایا چالشی است که این تکنیکها را در دست یافتن به تخمین مناسب پارامترهای سیستم محدود نموده است. تمامی روشهای پیشین کنترل بهینه تطبیقی برای حل بازیهای دیفرانسیلی مجموع-صفر و مجموع-غیرصفر نیاز به بررسی شرط تحریک پایا برای تضمین همگرایی الگوریتم به نقطه تعادل بهینه دارند. در این رساله، با استفاده از رویکرد جدید یادگیری همزمان، به شرط محدود کننده تحریک پایا غلبه گردیده و بجای آن شرایط کافی و آسان برای تضمین همگرائی پارامترها بدست آمده است. پایداری سیستم با استفاده از تکنیک لیاپانف تضمین شده و علاوه بر آن، همگرائی به نقطه تعادل نش بازی در همه حالتهای مذکور نشان داده شده است.

منابع مشابه

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی...

متن کامل

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی ...

متن کامل

حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رو...

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...

15 صفحه اول

یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک

در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...

متن کامل

حل برخط معادله ی همیلتون-ژاکوبی-بلمن برای سیستم های غیرخطی با دینامیک داخلی نامعلوم با استفاده از شبکه ی عصبی

در این مقاله روشی برای حل برخط معادله ی همیلتون-ژاکوبی-بلمن به منظور طراحی کنترلر بهینه برای سیستم های غیرخطی زمان پیوسته ارائه شده است. دیدگاه اساسی در این روش استفاده از تجربیات برای تقویت کنترلر می باشد، که با عنوان یادگیری تقویتی معروف است. ابتدا بر اساس ساختار عملگر- ارزیاب و به صورت برخط با استفاده از دو شبکه ی عصبی مجزا، معادله ی همیلتون-ژاکوبی-بلمن به صورت تقریبی حل می شود. شبکه های عمل...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023